Go top
Paper information

Missing data analysis using machine learning methods to predict the performance of technical students

G. de Melo Junior, S. Gomes Soares Alcalá, G. Pereira Furriel, S.L. Vieira

Revista Brasileira de Computação Aplicada Vol. 12, nº. 2, pp. 134 - 143

Original summary:

O aprendizado de máquina (ML) tornou-se uma tecnologia emergente capaz de resolver problemas em muitas áreas, incluindo educação, medicina, robótica e aeroespacial. O ML é um campo específico de inteligência artificial que projeta modelos computacionais capazes de aprender com os dados. No entanto, para desenvolver um modelo de ML, é necessário garantir a qualidade dos dados, pois os dados do mundo real são incompletos, ruídosos e inconsistentes. Este artigo avalia métodos avançados de tratamento de dados ausentes usando algoritmos ML para classificar o desempenho de estudantes do ensino médio do Instituto Federal de Goiânia como no Brasil. O objetivo é fornecer uma ferramenta computacional eficiente para auxiliar o desempenho educacional que permite aos educadores verificar a tendência do aluno a reprovar. Os resultados indicam que o método de ignorar e descartar supera outros métodos de tratamento de dados ausentes. Além disso, os testes revelam que a Otimização Mínima Sequencial, Redes Neurais e Bagging superam os outros algoritmos de ML, como Naive Bayes e Árvore de Decisão, em termos de precisão de classificação.


English summary:

Machine learning (ML) has become an emerging technology able to solve problems in many areas, including education, medicine, robotic and aerospace. ML is a specific field of artificial intelligence which designs computational models able to learn from data. However, to develop a ML model, it is necessary to ensure data quality, since real-world data is incomplete, noisy and inconsistent. This paper evaluates state-of-the-artmissing data treatment methods using ML algorithms to classify the performance of technical high school students at the Federal Institute of Goiás in Brazil. The aim is to provide an efficient computational tool to aid educational performance that allows the educators to verify the student’s tendency to fail. The results indicate that ignoring and discarding method outperforms other missing data treatment methods. Moreover, the tests reveal that Sequential Minimal Optimization, Neural Networks and Bagging outperform the other ML algorithms, such as Naive Bayes and Decision tree, in terms of classification accuracy.


Keywords: Missing Data Treatment Methods, Machine Learning, Evaluation of algorithms


DOI reference: DOI icon https://doi.org/10.5335/rbca.v12i2.10565

Published on paper: July 2020.

Published on-line: July 2020.



Citation:
G. de Melo Junior, S. Gomes Soares Alcalá, G. Pereira Furriel, S.L. Vieira, Missing data analysis using machine learning methods to predict the performance of technical students. Revista Brasileira de Computação Aplicada. Vol. 12, nº. 2, pp. 134 - 143, July 2020. [Online: July 2020]